搜狗汪仔来啦
2017年2月,搜狗汪仔机器人亮相江苏卫视的《一站到底》节目。汪仔一登台,立刻引起了人们的关注。汪仔能比人类聪明吗?汪仔会抢答吗?汪仔会最终战胜人类吗?人们带着各种疑问,在等待着结果。看到人们抢答时,甚至还为汪仔捏一把汗。
但是,汪仔的“知识库存”无疑是巨大的。比赛的结果证明,汪仔赢了。人们更好奇了,汪仔为什么能够战胜人类?它背后又有哪些技术支撑呢?
汪仔是搜狗公司研发的一款机器人(见图1),他能听、会说、会看、善思考(问答和聊天)。汪仔之所以能够在智力问答中战胜人类,其背后集成了搜狗的语音识别、语音合成、图像识别、深度问答和人机对话等多项人工智能技术。
图1 搜狗汪仔介绍
《一站到底》是国内排名第一的知识问答类节目,主要内容是选手之间的知识问答淘汰赛。搜狗汪仔因为具有较强的问答能力,所以每期节目中人类选手最后的胜者会与汪仔进行问答比赛。汪仔在节目中能够通过语音识别和图像识别两路通道接收问答题目,然后利用深度问答系统找到答案后,再通过语音合成技术播报答案。同时能够利用人机对话技术和主持人、选手进行简单的交流,活跃现场气氛。根据当前状态的感知,汪仔还有一些简单的肢体动作和表情。从目前已播出的十几期来看,汪仔以压倒性的优势战胜人类,其中有一期是节目开播5周年庆,选手都是往年的冠军选手,汪仔也能轻松地赢得胜利。
汪仔的特异功能
提到知识问答的人机大战,大多数人首先会想到IBM研发的机器人沃森(Watson),它在2011年参加了美国著名的知识问答节目《危险边缘》,并战胜了当时的人类冠军。汪仔和沃森的区别是什么?汪仔背后的原理又是什么?
1.语言不同
这一点显而易见。《危险边缘》是美国节目,使用的是英语;《一站到底》是中国节目,使用的是中文。中文的自然语言处理与英文相比,在语言的特点、词法、句法上都有显著的差异。在相同的任务上,例如词法、句法分析,中文集合上的性能通常都比英语集合上要低10%左右。即使使用深度学习端到端的处理方法,这种中英语言上性能的差异仍然存在,说明中文自然语言处理的难度。汪仔是使用中文的知识问答竞赛中首个战胜人类的机器人,仅从语言上的差异难度就比沃森要大。
2.问题的输入方式不同
沃森当时不具备语音识别、图像识别能力,参加《危险边缘》时,节目组要给沃森直接输入文本。而汪仔使用的是与人类完全一致的输入方式,即靠“听”主持人念题和“看”题板,通过语言识别和图像技术将其感知的语音和图像转换成文字后再处理。虽然汪仔“进步”了许多,但两者所处的年代不同,技术发展的水平不同。
3.赛制不同
《危险边缘》的赛制明确规定,只有主持人念完题后,选手才能抢答,抢到者优先作答。如果题目未结束就抢答,选手还会受到相应的惩罚。这也说明当题目叙述完整以后,选手去争夺回答问题的优先权。相反,在《一站到底》节目中,只要开始念题,在任意时间点选手都可以抢答;而高手之间的较量,通常都在题目未完成之前通过推理出完整的题目并作答,比拼的是推理的时机和抢答的比例。所以,沃森一定是用完整的问题作答,而汪仔则具备根据部分题目进行推理,并回答出全部题目的能力。一方面题目的推理较难,另一方面推理的错误率会和问答形成级联错误,进一步加大问答的难度。
4.问题的范畴不同
《危险边缘》有历史、科学、政治等6类问题,每个问题也有明确的所属类别。而《一站到底》不限定任何问题范围,每道题也没有明确的所属类别。因而,《危险边缘》是一种封闭域测试,《一站到底》是一种开放域测试。
5.计算方式不同
计算方式并不是关键点,但由于有不少网友从计算方式角度去比较汪仔和沃森,所以有必要说明一下。沃森当时用了90台IBM Power 750的服务器集群,并把它们搬到了节目现场,在独立的局域网环境中使用。而汪仔在语音识别、图像识别、语音合成以及部分基于知识图谱的问答都是在节目现场完成的,基于搜索的问答是联网后利用搜狗搜索的线上服务完成检索后再进行计算完成的。
超越人类的知识问答
汪仔之所以能够成功,得益于搜狗的问答系统。这套问答系统从技术实现上分为两类:一是基于知识图谱的KB-QA,一是基于搜索的Web-QA。这两种方法在汪仔问答中均有使用,用于回答不同的题目。
KB-QA是将数据挖掘得到的知识利用知识图谱(通常是三元组)表示、存储,问答时利用语义分析(semantic parsing)的技术将问题解析成结构化查询语句,查询知识库并回答问题。这种方法与人类学习知识并运用知识回答问题类似,也是理想的机器问答的方式。但受限于目前的技术水平,知识图谱在完备性、时效性、推理、语义分析的实用性上还面临较大挑战,所以目前KB-QA能够回答的问题还非常有限。
Web-QA是一种基于搜索的问答,利用全网无结构化信息,搜索与问题有关的所有信息(网页、问答对、垂直知识库等),并从相关信息中抽取精确答案。为了找到准确的相关信息及准确抽取相应答案,其中运用了非常多的自然语言处理、检索、语义匹配、信息抽取、机器学习等技术。同时,由于深度学习近来在文本上取得了一些进展,所以在汪仔中深度学习的应用也非常广泛,这点也与沃森有较大差别。Web-QA如果与人相比,有点像人的“死记硬背”,只不过机器的存储和计算都比人要快很多。
从图2可以看到汪仔背后的技术方案都可以在人的思考方式中找到相同的地方,那么机器和人对战,胜算如何呢?这里分两个方面来分析。
图2 汪仔问答系统结构图
第一,问答能力
在这个问题上,人的优势是理解能力强,有常识,掌握较完整的知识体系;劣势是单个人的知识面有限,且在竞赛过程中情绪易波动。相比之下,机器的优势是存储无穷,发挥稳定,劣势是语言的理解、推理能力差。
以Web-QA为例。它在搜索的基础上,又新增了问题的理解和答案提取工作。这件事对人来说很简单,但对机器难度不小。例如,“电视剧《上海滩》中冯晋骁的人物原型是哪位上海滩流氓大亨?”如果将问题作为查询词,搜索结果能够返回很多的相关网页,但如何从搜索结果摘要或网页内容中直接提取出答案“杜月笙”这件事,对人来说简单,对机器就比较难。机器很容易误回答为“黄金荣”,因为他也是上海大亨之一。
单个人掌握的知识面是有限的,如果问题属于个人的知识盲区,那么他即使完全理解这道题,也完全不会回答,所以人欠缺的还是机器的存储和检索能力。例如,“按照传统,历届美国总统就职时会用手抵哪本书进行宣誓?” 的问题,绝大部分的人都知道答案,但对于 “唐代画界有‘韩马戴牛’的说法,分别是指善于画马的韩干和哪位善于画牛的名家?”掌握这个知识点的人就很少了。但这两个问题对于机器来说,难度相当。
另一方面,人的情绪波动也很有趣。在汪仔的研发中,曾经有几次线下与人类高手的测试,其中有一位选手,是《一站到底》的历史战神,答题水平很高。他与机器挑战中,如果他的比分暂时领先,其状态就比较放松,往往也是坐着答题。如果他的比分暂时落后了,他就会很紧张,下意识地由坐着改为站着,精神高度集中,答题的能力也相应增强。而机器显然不会受到情绪波动的影响。
第二,抢答能力
《一站到底》的速度是制胜的关键点,怎样在获取相同信息情况下答题的速度要快?答题的时机要尽量提前呢?搜狗研究中心做了不少工程工作,包括提高网速,对语音识别和图像识别做流式增量识别,检索速度优化等等,基本做到接收一段新的语音音频(通常100ms左右一个语音包)后,可在200ms内完成一次问答,这个耗时,人是很难察觉出来的。然而考虑到人的正常语速,主持人大约1分钟说120字,那么说一个字耗时500ms,所以,如果能够提前对手1个字推理出问题并作答则具有绝对的优势。所有在汪仔的研发过程中利用尽可能少的信息去回答问题是一个重要挑战。
人和机器在推理上的能力也有很大的差异。人机测试中有个问题是“《鹿鼎记》中哪种毒药让瘦头陀变得身材臃肿非常矮小?”当时人类选手非常快的并正确回答出“豹胎易筋丸”,而机器却慢了一些。为什么呢?后来在与选手交流过程中得知,选手具备一个背景知识,即《鹿鼎记》中只有一种毒药,所以当题目念到“鹿鼎记中哪种毒药”时,人类选手就可以推理出答案并正确作答了。这种背景知识的获取和推理对机器来说还是非常困难的。在考诗词的上下句时,有一个有趣的现象也反映了人类思维的模式。经过多次测试,我们发现,如果给定诗词上句,考下句,通常人回答较快,基本是直觉反应;而反过来,如果给定下句考上句,人就需要相对较长的时间来反应,而机器能够稳定作答并胜出。
通过多种算法和工程的优化,在《一站到底》的赛制下,汪仔答题的精度约为90%,召回率约为90%,而历史上的人类冠军,答题精度约为90%,而召回率约70%。有趣的是,根据沃森的公开资料,它当时的精度和召回率约为90%和70%,它也战胜了当时的人类冠军。可以看出,几年过去了,人类在不同的语言环境下答题能力相当,变化不大;而机器,由于技术的不断发展,机器的能力又取得了长足的进步。
图3 汪仔抢答功能流程图
汪仔的“大梦想”
在《一站到底》这种问答节目中,汪仔已经具备了超过人类的水平。未来,汪仔还将开启一些新的能力,例如回答看图题、音频题等等,继续提高理解、推理能力。但这些还远远不够。汪仔参加《一站到底》是对搜狗的人工智能技术的一次集中展现,向观众展示了搜狗具备的能力。但回到现实中,《一站到底》并不是用户的真实需求,对人对机器,都仅仅是能力的一种展现。搜狗公司在人工智能战略中,一直在思索和追求的是,如何利用人工智能技术去做一些有用的产品,而结合搜狗的两大核心业务搜索和输入法,我们坚持不懈地利用最前沿的技术去打磨产品,从而给用户带来更好的服务。
搜索引擎已经成为人们获取信息、知识的一个最重要的工具,审视用户使用搜索引擎的过程,其中还有不少需要突破的地方,我们认为变革的核心是 “从搜索到问答”。 主要包括两方面:问题的变革。目前用户提交给搜索引擎的查询请求仍以关键字为主,这是长期以来受技术能力的限制,用户和搜索引擎之间形成的一种默契,因为在早期,关键字往往能够得到比自然语言问题更好的搜索结果。随着相关技术的突破,未来用户将更多地使用自然语言问句,人与搜索引擎的交互将逐步走向人与人之间的交流方式,特别是在移动、语音交互的场合。另一方面,答案的变革。从搜索引擎诞生的第一天起,搜索引擎返回的“答案”一直是若干条结果的链接,这就需要用户人工阅读一条或多条搜索结果(网页),并人工整理出答案。严格地说,现在的搜索引擎并没有返回答案,答案的获取是采用“人机结合”的方式得到的,即机器负责在全网信息中找到尽可能准确和多的相关信息,而由人来最终判断出准确的答案并为人所用。这种人机结合的方式,效率显然不高,特别是在移动环境下和在屏幕小或没有屏幕的情况下。汪仔已经在《一站到底》的特定环境下,实现了直接给出答案,但用户在搜索引擎中的真实需求更加口语化、更加开放、情况更加复杂,所以在真实的搜索引擎中能够针对用户的自然语言问题直接给出答案面临着巨大的挑战,这也正是搜狗搜索努力的方向。
目前较热门的个人助理方向也有相似之处。纵观目前个人助理落地较多的应用有两种:一是命令的执行,与操作系统结合能够完成一些操作,例如打电话、上闹钟等;与垂直领域相结合,能够完成一些服务,例如订机票、打车等。我把这种功能类比为“秘书”,更多的是执行用户的命令,而谈不上交流。第二种则是情感陪护的闲聊,它能够与用户进行一定程度的情感交流,但针对特定的问题几乎不能提供正确的知识与信息,例如北京市长、大学申请条件等等。我把这种以情感为主的交流类比为人类交往的“蜜月期”,大多数人群对这种交流的需求有限。那么,人与人之间更多的交流是什么呢?我们认为是人与自己的亲人、朋友、同事之间的交流,就他们所关心的事件、知识、经验所进行的探讨,它一定是有信息和知识来支撑的,其中除了情感维护,还有很多思想的碰撞与交流。用全网的信息与知识支撑的、能够与用户进行自然交互的问答,真正成为人类的“良师益友”,这正是搜狗汪仔背后的“大梦想”。 ■
所有评论仅代表网友意见